广泛认为,面部识别准确性存在“性别差距”,女性具有较高的错误匹配和错误的非匹配率。但是,关于这种性别差距的原因,相对较少了解。甚至最近有关人口影响的NIST报告也列出了“我们没有做的事情”下的“分析因果”。我们首先证明女性和男性发型具有影响面部识别准确性的重要差异。特别是,与女性相比,男性面部毛发有助于在不同男性面孔之间产生更大的外观平均差异。然后,我们证明,当用来估计识别精度的数据在性别之间保持平衡,以使发型如何阻塞面部时,最初观察到的性别差距在准确性上大大消失。我们为两个不同的匹配者展示了这一结果,并分析了白种人和非裔美国人的图像。这些结果表明,对准确性的人口统计学差异的未来研究应包括检查测试数据的平衡质量,作为问题制定的一部分。为了促进可重复的研究,将公开使用此研究中使用的匹配项,属性分类器和数据集。
translated by 谷歌翻译
媒体报道指责人们对“偏见”',“”性别歧视“和”种族主义“的人士指责。研究文献中有共识,面部识别准确性为女性较低,妇女通常具有更高的假匹配率和更高的假非匹配率。然而,几乎没有出版的研究,旨在识别女性准确性较低的原因。例如,2019年的面部识别供应商测试将在广泛的算法和数据集中记录较低的女性准确性,并且数据集也列出了“分析原因和效果”在“我们没有做的东西”下''。我们介绍了第一个实验分析,以确定在去以前研究的数据集上对女性的较低人脸识别准确性的主要原因。在测试图像中控制相等的可见面部可见面积减轻了女性的表观更高的假非匹配率。其他分析表明,化妆平衡数据集进一步改善了女性以实现较低的虚假非匹配率。最后,聚类实验表明,两种不同女性的图像本质上比两种不同的男性更相似,潜在地占错误匹配速率的差异。
translated by 谷歌翻译
在“封闭设置”场景中的评估之外,在呈现虹膜识别的演示攻击检测(PAD)中的研究基本上已经转移,以强调概括培训数据中不存在的演示攻击类型的能力。本文提供了几项贡献,可以理解和扩展开放式虹膜垫的最先进。首先,它描述了虹膜垫迄今为止最权威的评估。我们已经为此问题策划了最大的公共可用图像数据集,该数据集从先前由各个组发布的26个基准中绘制出来,并在本文的期刊版本中添加了150,000张图像,以创建一组450,000张代表正宗Iris和7的图像演示攻击工具的类型(PAI)。我们制定了一项保留的评估协议,并表明封闭式评估中的最佳算法在开放集情况下在多种攻击类型上都会显示出灾难性的失败。这包括在最新的Livdet-IRIS 2020竞赛中表现良好的算法,这可能来自以下事实:Livdet-IRIS协议强调隔离图像而不是看不见的攻击类型。其次,我们评估了当今可用的五种开源虹膜呈现攻击算法的准确性,其中一种是本文新近提出的,并建立了一种合奏方法,该方法以大幅度的利润击败了Livdet-IRIS 2020的获胜者。本文表明,当训练期间所有PAIS都知道时,封闭设置的虹膜垫是一个解决问题,多种算法显示出非常高的精度,而开放式虹膜垫(正确评估)尚未解决。新创建的数据集,新的开源算法和评估协议可公开使用本文的期刊版本,提供了研究人员可以用来衡量这一重要问题的进度的实验文物。
translated by 谷歌翻译
面部图像合成已经超出了人类可以有效区分真实面孔和合成产生的面孔的进展。最近开发的合成面部图像探测器具有“比人类更好”的判别能力,尤其是那些在模型训练过程中受到人类感知智能的指导的能力。在本文中,我们研究了这些人类引导的合成面探测器是否可以帮助非专业人类操作员在合成图像检测的任务中与没有人类施用的模型相比。我们进行了一项大规模实验,对1,560多个受试者进行了分类,该试验是否显示出真实或合成生成的面部,并注释支持其决策的区域。总共收集了3,780张独特面部图像的56,015个注释。所有受试者首先检查了没有任何AI支持的样品,然后给出了(a)AI的决定(“合成”或“真实”),(b)类激活图,说明了模型对其决策的显着性,或(c) AI的决定和AI的显着性图。合成面是由六个现代生成对抗网络产生的。该实验的有趣观察结果包括:(1)接受人类实力训练的模型为人类对面部图像的检查提供了更好的支持,与传统上使用跨凝性损失训练的模型相比,(2)向人类提出的二进制决策提供了比显着性更好的支持。地图,(3)理解AI的准确性有助于人类增加对特定模型的信任,从而提高其整体准确性。这项工作表明,尽管由机器支持的人类实现了合成面部检测的准确性,但向人类提供AI支持和建立信任的方式是决定人类串联的高效性的关键因素。
translated by 谷歌翻译
在本文中,我们分析了面部图像中基本身份的基本3D形状如何扭曲其整体外观,尤其是从深面识别的角度来看。正如在流行的训练数据增强方案中所做的那样,我们以随机选择或最合适的3D面部模型的形式渲染真实和合成的面部图像,以产生基本身份的新视图。我们比较了这些图像产生的深度特征,以评估这些渲染引入原始身份的扰动。我们以各种程度的面部偏航进行了这种分析,基本身份的性别和种族各不相同。此外,我们调查在这些渲染图像中添加某种形式的上下文和背景像素,当用作训练数据时,进一步改善了面部识别模型的下游性能。我们的实验证明了面部形状在准确的面部匹配中的重要性,并基于上下文数据对网络训练的重要性。
translated by 谷歌翻译
法医虹膜认可,而不是活着的Iris认可,是一个新兴的研究领域,它利用Iris Biometrics的判别能力来帮助人类检查员识别死者。作为一种主要是人为控制的任务,作为一种基于机器学习的技术,法医识别是在验证后识别任务中对人类专业知识的“备份”。因此,机器学习模型必须是(a)可解释的,并且(b)验尸特异性,以说明衰减眼组织的变化。在这项工作中,我们提出了一种满足需求的方法,并以人类感知的方式以一种新颖的方式接近验尸的创建。我们首先使用人类突出的图像区域的注释来训练基于学习的特征探测器,这是他们的决策。实际上,该方法直接从人类那里学习可解释的特征,而不是纯粹的数据驱动特征。其次,区域虹膜代码(同样,具有人体驱动的过滤内核)用于配对检测到的虹膜斑块,这些颗粒被转化为基于斑块的比较分数。通过这种方式,我们的方法为人类考官提供了人为理解的视觉提示,以证明身份决定和相应的置信度得分是合理的。当在259名死者的验尸虹膜图像的数据集上进行测试时,提出的三个最佳虹膜匹配者中提出的方法位置比商业(非人类互换)的Verieye方法更好。我们提出了一种独特的验尸后虹膜识别方法,该方法接受了人类显着性的培训,可以在法医检查的背景下提供完全解释的比较结果,从而实现最先进的识别表现。
translated by 谷歌翻译
人工智能的最新趋势是将验证的模型用于语言和视觉任务,这些模型已经实现了非凡的表现,但也令人困惑。因此,以各种方式探索这些模型的能力对该领域至关重要。在本文中,我们探讨了模型的可靠性,在其中我们将可靠的模型定义为一个不仅可以实现强大的预测性能,而且在许多涉及不确定性(例如选择性预测,开放式设置识别)的决策任务上,在许多决策任务上表现出色,而且表现良好。强大的概括(例如,准确性和适当的评分规则,例如在分布数据集中和分发数据集上的对数可能性)和适应性(例如,主动学习,几乎没有射击不确定性)。我们设计了40个数据集的10种任务类型,以评估视觉和语言域上可靠性的不同方面。为了提高可靠性,我们分别开发了VIT-PLEX和T5-PLEX,分别针对视觉和语言方式扩展了大型模型。 PLEX极大地改善了跨可靠性任务的最先进,并简化了传统协议,因为它可以改善开箱即用的性能,并且不需要设计分数或为每个任务调整模型。我们演示了高达1B参数的模型尺寸的缩放效果,并预处理数据集大小最多4B示例。我们还展示了PLEX在具有挑战性的任务上的功能,包括零射门的开放式识别,主动学习和对话语言理解中的不确定性。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
虹膜识别生活人员是一项成熟的生物识别方式,这些模型已通过政府ID计划,边境交通,选民登记和重复,以解锁移动电话。另一方面,最近出现了识别死者模式的死者受试者的可能性。在本文中,我们提出了一种基于端到端的深度学习方法,用于后期虹膜虹膜分割和具有特殊可视化技术的识别,旨在支持您的努力中取证人类审查员。所提出的后期虹膜分割方法优于现有技术,并且除虹膜环上,如古典虹膜分割方法 - 检测眼部分解过程所引起的异常区域,如犁沟或干燥和皱纹的不规则镜面亮点角膜。该方法培训并验证了从171名尸体获取的数据,保存在核心条件下,并在从259名死亡科目获得的主题脱节数据上进行测试。据我们所知,这是迄今为止迄今为止的虹膜识别研究中使用的最大数据核心。纸张提供了该方法的源代码。测试数据将通过刑事司法数据(NACJD)档案馆的国家档案提供。
translated by 谷歌翻译
如果通过参考人类感知能力,他们的培训可以实现深度学习模型可以实现更大的概括吗?我们如何以实际的方式实现这一目标?本文提出了一种首次培训策略来传达大脑监督,以提高泛化(机器人)。这种新的训练方法将人类注释的显着性图纳入了一种机器人损失函数,指导了在求解给定视觉任务时从图像区域的学习特征的模型。类激活映射(CAM)机制用于探测模型在每个训练批处理中的电流显着性,与人为显着性,并惩罚模型以实现大差异。结果综合面检测任务表明,Cyborg损失导致看不见的样本的性能显着改善,这些样本由多种分类网络架构中的六个生成对抗网络(GANS)产生的面部图像组成。我们还表明,与标准损失的培训数据缩放到甚至七次甚至不能击败机器人损失的准确性。作为副作用,我们观察到,在合成面检测的任务方面增加了显式区域注释增加了人类分类性能。这项工作开启了关于如何将人类视力置于损失功能的新研究领域。本文提供了本工作中使用的所有数据,代码和预训练型号。
translated by 谷歌翻译